本文介绍了阿拉伯语多方面自动语音识别的设计与开发。深度神经网络正在成为解决顺序数据问题的有效工具,特别是采用系统的端到端培训。阿拉伯语语音识别是一个复杂的任务,因为存在多种方言,非可用性的大型语言和遗失的声音。因此,这项工作的第一种贡献是开发具有完全或至少部分发声转录的大型多方面语料库。此外,开源语料库已从多个源收集,通过定义公共字符集来对转录中的非标准阿拉伯字母表进行标准化。第二款贡献是开发框架,用于培训实现最先进的性能的声学模型。网络架构包括卷积和复发层的组合。音频数据的频谱图特征在频率VS时域中提取并在网络中馈送。通过复发模型产生的输出帧进一步训练以使音频特征与其相应的转录序列对齐。使用具有Tetra-Gram语言模型的波束搜索解码器来执行序列对准。所提出的系统实现了14%的错误率,以前优于以前的系统。
translated by 谷歌翻译
特征提取是图分析中的重要任务。这些特征向量(称为图形描述符)用于基于下游矢量空间的图形分析模型。过去证明了这个想法,基于光谱的图形描述符提供了最新的分类准确性。但是,要计算有意义的描述符的已知算法不会扩展到大图,因为:(1)它们需要将整个图存储在内存中,并且(2)最终用户无法控制算法的运行时。在本文中,我们提出流算法以大约计算三个不同的图形描述符,以捕获图的基本结构。在边缘流上操作使我们避免将整个图存储在内存中,并控制样本大小使我们能够将算法的运行时间保持在所需的范围内。我们通过分析近似误差和分类精度来证明所提出的描述符的功效。我们的可扩展算法计算图形的描述符,并在几分钟之内具有数百万个边缘。此外,这些描述符得出的预测精度可与最新方法相当,但只能使用25%的记忆来计算。
translated by 谷歌翻译
Ensemble learning combines results from multiple machine learning models in order to provide a better and optimised predictive model with reduced bias, variance and improved predictions. However, in federated learning it is not feasible to apply centralised ensemble learning directly due to privacy concerns. Hence, a mechanism is required to combine results of local models to produce a global model. Most distributed consensus algorithms, such as Byzantine fault tolerance (BFT), do not normally perform well in such applications. This is because, in such methods predictions of some of the peers are disregarded, so a majority of peers can win without even considering other peers' decisions. Additionally, the confidence score of the result of each peer is not normally taken into account, although it is an important feature to consider for ensemble learning. Moreover, the problem of a tie event is often left un-addressed by methods such as BFT. To fill these research gaps, we propose PoSw (Proof of Swarm), a novel distributed consensus algorithm for ensemble learning in a federated setting, which was inspired by particle swarm based algorithms for solving optimisation problems. The proposed algorithm is theoretically proved to always converge in a relatively small number of steps and has mechanisms to resolve tie events while trying to achieve sub-optimum solutions. We experimentally validated the performance of the proposed algorithm using ECG classification as an example application in healthcare, showing that the ensemble learning model outperformed all local models and even the FL-based global model. To the best of our knowledge, the proposed algorithm is the first attempt to make consensus over the output results of distributed models trained using federated learning.
translated by 谷歌翻译
在这项工作中,我们为数字教练提供了一个新的数据集和一种计算策略,旨在指导用户练习自我附加疗法的方案。我们的框架增强了基于规则的对话代理,具有深入学习分类器,可在用户的文本响应中识别潜在的情感,以及一种深入学习的辅助检索方法,用于制作新颖,流利和善解人意的话语。我们还制作了用户可以选择与之互动的类似人类的角色。我们的目标是在虚拟疗法课程中获得高水平的参与度。我们在n = 16名参与者的非临床试验中评估了我们的框架的有效性,在五天的时间里,所有人都至少与代理商进行了四次相互作用。我们发现,与简单的基于规则的框架相比,我们的平台在同理心,用户参与度和实用性方面的评分始终高。最后,我们提供指南,以根据收到的反馈来进一步改善应用程序的设计和性能。
translated by 谷歌翻译
联邦学习(FL)的应用正在稳步增加,尤其是在医疗保健等隐私性应用程序中。但是,由于各种对抗性攻击,例如中毒攻击(模型和数据中毒),其应用程序受到安全问题的限制。这种攻击试图毒化当地模型和数据以操纵全球模型,以获得不当的好处和恶意使用。传统的数据审核方法减轻中毒攻击的方法在FL中找到了有限的应用程序,因为由于隐私问题,边缘设备永远不会直接共享其原始数据,并且在全球范围内分布,没有深入了解其培训数据。此后,制定适当的策略来解决此类攻击并最大程度地减少其对联邦学习全球模型的影响是一项挑战。为了解决FL中的此类挑战,我们提出了一个新颖的框架,以使用深度神经网络和支持向量机的形式检测中毒攻击,而无需获得有关本地边缘设备的基础培训数据的任何直接访问或信息。我们为两种不同的医疗保健应用中使用不同的最先进的中毒攻击来说明和评估所提出的框架:心电图分类和人类活动识别。我们的实验分析表明,所提出的方法可以有效地检测中毒攻击,并可以从全球聚集中删除已确定的中毒更新。此后可以提高联邦全球的性能。
translated by 谷歌翻译
肿瘤浸润淋巴细胞(TIL)的定量已被证明是乳腺癌患者预后的独立预测因子。通常,病理学家对含有tils的基质区域的比例进行估计,以获得TILS评分。乳腺癌(Tiger)挑战中肿瘤浸润淋巴细胞旨在评估计算机生成的TILS评分的预后意义,以预测作为COX比例风险模型的一部分的存活率。在这一挑战中,作为Tiager团队,我们已经开发了一种算法,以将肿瘤与基质与基质进行第一部分,然后将肿瘤散装区域用于TILS检测。最后,我们使用这些输出来生成每种情况的TILS分数。在初步测试中,我们的方法达到了肿瘤 - 细胞瘤的加权骰子评分为0.791,而淋巴细胞检测的FROC得分为0.572。为了预测生存,我们的模型达到了0.719的C索引。这些结果在老虎挑战的初步测试排行榜中获得了第一名。
translated by 谷歌翻译
自我监督的语音识别模型需要大量标记的培训数据,以学习自动语音识别(ASR)的高保真表示,这是计算要求且耗时的,从而阻碍了这些模型在资源受限环境中的使用。我们考虑确定最佳数据子集以训练ASR的自我监督语音模型的任务。我们表达了一个令人惊讶的观察,即用于采样最有用的示例中使用的数据集修剪策略并没有比随机的子集选择在微调自我监督的ASR任务上更好。然后,我们提出了Cowerage算法,以在自我监督的ASR中更好地子集选择,该算法是基于我们的发现,即确保基于培训单词错误率(WER)在早期训练时期的范围覆盖示例,可以提高概括性能。在WAV2VEC 2.0模型和TIMIT,LibrisPeech和LjSpeech数据集上进行的广泛实验显示了COWERAGE的有效性,比现有数据集修剪方法和随机采样的绝对改善高达17%。我们还证明,培训实例的覆盖范围可确保包括语音多样的示例,从而在自我监督的语音识别模型中更好地测试准确性。
translated by 谷歌翻译
近年来,使用深度学习算法探讨了丢失或损坏段的数字音频信号重建。然而,具有线性插值,相位编码和音调插入技术的先前传统方法仍在时尚中。但是,我们发现没有关于使用抖动,隐写术和机器学习回归流器的融合的音频信号的重建研究工作。因此,本文提出了隐写术,半色调(抖动)和最先进的浅(RF-随机森林和SVR-支持向量回归)和深度学习(LSTM-长期记忆)方法的组合。结果(包括与西班牙和自回归方式的比较)进行了四种不同的指标评估。结果表明,该解决方案是有效的,可以增强由侧面信息(嘈杂 - 潜在表示)隐写的音频信号的重建。这项工作可能触发对优化这种方法的利息和/或将其转移到不同的域(即,图像重建)。
translated by 谷歌翻译
在二进制分类中,不平衡是指一个类受到重量级的情况。这个问题是由于数据收集过程,或者是一个班级的人口中罕见。生物学,医学,工程和社会科学等应用中经常出现不平衡的分类。在本手稿中,我们首次学习不平衡课程大小对高尺寸线性判别分析(LDA)的影响。我们表明,由于一类中的数据稀缺,称为少数阶级,以及特征空间的高度,LDA忽略了少数阶级,产生了最大的错误分类率。然后,我们基于划分和征服技术提出了一种新的硬阈值规则的建设,这减少了错误分类率之间的巨大差异。我们表明所提出的方法是渐近最佳的。我们进一步研究了不平衡案例中的两个已知众所周知的LDA稀疏版本。我们使用模拟评估不同方法的有限样本性能,并通过分析两个真实数据集。结果表明,我们的方法胜过其竞争对手或基于所选特征的小区的较小子集具有可比性,同时计算更有效。
translated by 谷歌翻译
人类活动识别(HAR)是一项机器学习任务,在包括医疗保健在内的许多领域中进行了应用,但事实证明这是一个具有挑战性的研究问题。在医疗保健中,它主要用作老年护理的辅助技术,通常与其他相关技术(例如物联网)一起使用,因为可以在智能手机,可穿戴设备,环境环境等物联网设备的帮助下实现HAR和体内传感器。在集中式和联合环境中,已将卷积神经网络(CNN)和经常性神经网络(RNN)等深神网络技术(CNN)和复发性神经网络(RNN)用于HAR。但是,这些技术有一定的局限性:RNN不能轻易平行,CNN具有序列长度的限制,并且两者在计算上都很昂贵。此外,在面对诸如医疗保健等敏感应用程序时,集中式方法存在隐私问题。在本文中,为了解决HAR面临的一些现有挑战,我们根据惯性传感器提出了一种新颖的单块变压器,可以将RNN和CNN的优势结合在一起而无需其主要限制。我们设计了一个测试床来收集实时人类活动数据,并使用数据来训练和测试拟议的基于变压器的HAR分类器。我们还建议转移:使用拟议的变压器解决隐私问题的基于联合学习的HAR分类器。实验结果表明,在联合和集中设置中,该提出的解决方案优于基于CNN和RNN的最先进的HAR分类器。此外,拟议的HAR分类器在计算上是便宜的,因为它使用的参数少于现有的CNN/RNN分类器。
translated by 谷歌翻译